Statistical Assumptions Checklist & Troubleshooting Guide

Practical guide for checking assumptions and handling violations in South Asian development research

CORRELATION ANALYSIS ASSUMPTIONS

Pre-Analysis Checklist

Sample size adequate: n ≥ 30 (prefer 100+ for stability)
Data type appropriate: Both variables continuous for Pearson's r
Paired observations: Each case has values for both variables
Independence: Observations are independent of each other

Assumption 1: Linearity

How to Check:
• Create scatterplot of X vs Y
• Look for straight-line pattern
• Check residuals plot (if using regression)

Violation Signs:
• Curved pattern in scatterplot
• U-shaped or inverted U-shape
• Relationship changes direction

Solutions for Non-linearity:

Use Spearman's correlation (rank-based, handles curves better)
Transform variables: Log, square root, or polynomial transformations
Report non-linear relationship: Acknowledge curvilinear patterns

South Asian Context:

Common non-linear relationships: Income vs health outcomes (diminishing returns at high income), Education vs fertility (steep decline then plateau), Distance vs service use (threshold effects)

Assumption 2: Normal Distribution

How to Check:
• Histogram of each variable
• Q-Q plots
• Shapiro-Wilk test (n < 50)
• Kolmogorov-Smirnov test (n ≥ 50)

Violation Signs:
• Skewed distributions
• Multiple peaks
• Extreme outliers
• p < 0.05 in normality tests

Solutions for Non-normality:

Large samples (n > 100): Correlation is robust to non-normality
Use Spearman's correlation: Non-parametric alternative
Transform variables: Log transformation for positive skew

Assumption 3: Homoscedasticity (Equal Variance)

How to Check: Look at scatterplot - variance should be similar across all X values

Violation (Heteroscedasticity) Signs: Fan-shaped pattern, variance increases/decreases with X

Solutions:

Transform Y variable: Log or square root transformation
Use robust correlation methods
Report with caution: Note heteroscedasticity in interpretation

South Asian Examples:

Income data: Often highly skewed (few very wealthy households). Agricultural yields: May have different variance across farm sizes. Education scores: Floor/ceiling effects common.

ANOVA ASSUMPTIONS

Pre-Analysis Checklist

Sample size: At least 20 per group, prefer 30+
Variable types: Continuous dependent, categorical independent
Balanced design preferred: Similar group sizes
Random sampling: Groups represent target populations

Assumption 1: Independence of Observations

Critical Assumption - Violations Seriously Affect Results

Common violations: Clustering (households in villages), repeated measures, matched pairs
Signs: Data from same units/locations, pre-post measurements, family members

Solutions for Dependence:

Cluster-robust standard errors
Mixed-effects models (random effects for clusters)
Repeated measures ANOVA (for time-series data)
Aggregate to cluster level (village means instead of individual data)

South Asian Context:

Village clustering: People in same village share infrastructure, weather, policies. Household clustering: Family members share economic conditions. Regional clustering: States/districts have different governance.

Assumption 2: Normality of Residuals

How to Check:
• Histogram of residuals
• Q-Q plot of residuals
• Shapiro-Wilk test on residuals
• Check each group separately

Violation Signs:
• Skewed residual distribution
• Heavy tails in Q-Q plot
• Significant normality test
• Different shapes across groups

Solutions for Non-normality:

Large samples: ANOVA is robust with n > 30 per group
Transform dependent variable: Log, square root, or Box-Cox
Non-parametric alternative: Kruskal-Wallis test
Bootstrap confidence intervals

Assumption 3: Homogeneity of Variance (Homoscedasticity)

How to Check:
• Levene's test
• Bartlett's test (sensitive to normality)
• Box plot comparison
• Residuals vs fitted values plot

Violation Signs:
• Significant Levene's test (p < 0.05)
• Very different group variances
• Rule of thumb: largest/smallest variance > 4:1

Solutions for Unequal Variances:

Welch's ANOVA: Doesn't assume equal variances
Transform dependent variable: May stabilize variances
Non-parametric test: Kruskal-Wallis
Robust ANOVA methods

South Asian Development Examples:

Income data: Control groups often have less variance than treatment groups. Test scores: Rural vs urban schools may have very different variance. Agricultural yields: Irrigated vs rain-fed areas show different variability.

Special Considerations for Development Data

Unequal group sizes: Common in field studies - ANOVA still valid but less powerful
Missing data: May not be random - check if missingness relates to treatment
Outliers: May represent genuinely successful/failed cases, not just errors

REGRESSION ANALYSIS ASSUMPTIONS

Pre-Analysis Checklist

Sample size: Minimum 10-15 observations per predictor
Variable relationships: Theory-driven variable selection
Multicollinearity check: Correlations between predictors < 0.8
Complete case analysis: Handle missing data appropriately

Assumption 1: Linearity

How to Check:
• Scatterplots of Y vs each X
• Residuals vs fitted values plot
• Component-plus-residual plots
• Added variable plots

Violation Signs:
• Curved patterns in scatterplots
• Systematic patterns in residuals
• Poor model fit despite significance

Solutions for Non-linearity:

Add polynomial terms: X², X³ for curved relationships
Transform variables: Log, square root transformations
Piecewise regression: Different slopes for different ranges
Non-linear regression models

Assumption 2: Independence of Residuals

Critical Assumption - Often Violated in Development Data

Spatial dependence: Villages in same district are similar
Temporal dependence: Observations over time are correlated
Hierarchical structure: Students within schools, households within villages

Solutions for Dependence:

Cluster-robust standard errors
Multilevel/hierarchical models
Fixed effects models (control for unobserved group characteristics)
Spatial regression models (for geographic data)

Assumption 3: Homoscedasticity

How to Check:
• Residuals vs fitted values plot
• Breusch-Pagan test
• White test
• Plot residuals vs each predictor

Violation Signs:
• Fan-shaped residual pattern
• Variance increases with fitted values
• Significant heteroscedasticity tests

Solutions for Heteroscedasticity:

Robust standard errors (White/Huber-White)
Weighted least squares
Transform dependent variable (log transformation often helps)
Generalized least squares models

Assumption 4: Normality of Residuals

How to Check: Histogram of residuals, Q-Q plot, Shapiro-Wilk test (on residuals, not original data)

Solutions for Non-normal Residuals:

Large samples: Regression is robust with n > 100
Bootstrap confidence intervals
Transform dependent variable
Robust regression methods

Assumption 5: No Multicollinearity

How to Check:
• Correlation matrix of predictors
• Variance Inflation Factor (VIF)
• Condition indices
• Tolerance values

Violation Signs:
• High correlations (|r| > 0.8)
• VIF > 5 (some say > 10)
• Tolerance < 0.2
• Unstable coefficients

Solutions for Multicollinearity:

Remove redundant variables
Create composite indices (combine related variables)
Principal component analysis
Ridge regression (handles collinearity better)

Common Multicollinearity in South Asian Development:

Education & Income: Highly correlated. Infrastructure variables: Water, electricity, roads often bundled. Health indicators: Multiple nutrition measures. Geographic variables: Rainfall, temperature, elevation may be collinear.

Assumption 6: No Influential Outliers

How to Check:
• Cook's distance (> 1 problematic)
• Leverage values (> 2k/n)
• Studentized residuals (> ±3)
• DFBETAS (> 2/√n)

Outlier Types:
• High leverage (unusual X values)
• High residual (unusual Y values)
• High influence (affects coefficients)
• May be genuine or errors

Handling Outliers:

Investigate first: Are they data errors or genuine cases?
Robust regression: Less sensitive to outliers
Transform variables: May reduce outlier impact
Report sensitivity: Results with and without outliers

Outliers in Development Data:

Success stories: Exceptionally successful interventions. Extreme poverty: Households with very low income/assets. Urban-rural differences: Urban areas in rural samples. Data errors: Recording mistakes, unit confusion.

Assumption	Method	Severity if Violated	Primary Consequence
Independence	All methods	CRITICAL	Invalid p-values, wrong conclusions
Linearity	Correlation, Regression	HIGH	Missed relationships, poor predictions
Normality	All methods	MEDIUM (with large n)	Slightly inaccurate p-values
Homoscedasticity	ANOVA, Regression	MEDIUM	Inefficient estimates, wrong SE
Multicollinearity	Regression	MEDIUM	Unstable coefficients, interpretation issues

South Asian Development Data: Common Issues & Solutions

Typical Data Challenges

Challenge	Description	Statistical Impact	Recommended Solution
Seasonal effects	Agricultural data varies by monsoon	Non-independence, heteroscedasticity	Include season controls, cluster by year
Village clustering	Households in same village are similar	Independence violation	Cluster-robust SE, multilevel models
Extreme inequality	Very skewed income distributions	Non-normality, outliers	Log transformation, robust methods
Missing data patterns	Non-random missingness	Selection bias	Multiple imputation, selection models
Floor/ceiling effects	Many zero values or maximum scores	Non-normality, non-linearity	Tobit models, transformations

Practical Recommendations

Always plot your data first: Visual inspection catches many issues
Use robust methods when possible: They handle assumption violations better
Report assumption tests: Build credibility by acknowledging limitations
Consider cultural context: Statistical significance must align with practical meaning
Validate with domain experts: Local knowledge helps interpret statistical findings

Statistical Assumptions Checklist & Troubleshooting Guide

Why Assumptions Matter in South Asian Development Research

General Assumption-Checking Workflow

CORRELATION ANALYSIS ASSUMPTIONS

Pre-Analysis Checklist

Assumption 1: Linearity

Solutions for Non-linearity:

South Asian Context:

Assumption 2: Normal Distribution

Solutions for Non-normality:

Assumption 3: Homoscedasticity (Equal Variance)

Solutions:

South Asian Examples:

ANOVA ASSUMPTIONS

Pre-Analysis Checklist

Assumption 1: Independence of Observations

Solutions for Dependence:

South Asian Context:

Assumption 2: Normality of Residuals

Solutions for Non-normality:

Assumption 3: Homogeneity of Variance (Homoscedasticity)

Solutions for Unequal Variances:

South Asian Development Examples:

Special Considerations for Development Data

REGRESSION ANALYSIS ASSUMPTIONS

Pre-Analysis Checklist

Assumption 1: Linearity

Solutions for Non-linearity:

Assumption 2: Independence of Residuals

Solutions for Dependence:

Assumption 3: Homoscedasticity

Solutions for Heteroscedasticity:

Assumption 4: Normality of Residuals

Solutions for Non-normal Residuals:

Assumption 5: No Multicollinearity

Solutions for Multicollinearity:

Common Multicollinearity in South Asian Development:

Assumption 6: No Influential Outliers

Handling Outliers:

Outliers in Development Data:

Assumption Violation Severity Guide

South Asian Development Data: Common Issues & Solutions

Typical Data Challenges

Practical Recommendations

Remember: Perfect Data Doesn't Exist